Search CORE

3,550 research outputs found

Bornes de risque pour les forêts purement uniformément aléatoires

Author: Genuer Robin
Publication venue: HAL CCSD
Publication date: 01/01/2010
Field of study

International audienceIntroduites par Leo Breiman en 2001, les forêts aléatoires sont une méthode statistique très performante. D'un point de vue théorique, leur analyse est difficile, du fait de la complexité de l'algorithme. Pour expliquer ces performances, des versions de forêts aléatoires simplifiées (et donc plus faciles à analyser) ont été introduites : les forêts purement aléatoires. Dans cet article, nous introduisons une autre version simplifiée, que nous appelons forêts purement uniformément aléatoires. Dans un contexte de régression avec une seule variable explicative, nous montrons que les arbres aléatoires ainsi que les forêts aléatoires atteignent la vitesse de convergence minimax. Et plus important, nous prouvons que les forêts aléatoires améliorent les performances des arbres aléatoires, en réduisant la variance des estimateurs associés d'un facteur trois quarts

INRIA a CCSD electronic archive server

Hal-Diderot

Prévision de trajectoires de cyclones à l'aide de forêts aléatoires avec arbres de régression

Author: Ba Sileye
Fablet Ronan
Lenca Philippe
Liberge Sterenn Marie
Publication venue: Hermann
Publication date: 25/01/2011
Field of study

International audienceNous présentons une étude pour la prédiction des trajectoires de cyclones dans l'océan Atlantique Nord à partir de données issues d'images satellites. On y extrait des mesures de vitesses de vent, de vorticité, d'humidité (base JRA-25)et des mesures de latitude, de longitude et de vitesse de vent instantanée des cyclones toutes les 6 heures (base IBTrACS). Les modèles de référence à ce jour ne tiennent pas compte des corrélations entre les données et les prévisions ce qui limite leur intérêt pour certains utilisateurs. Nous proposons ainsi de prédire le déplacement en latitude et le déplacement en longitude au même instant à un horizon de 120 h toutes les 6 h à l'aide de forêts aléatoires avec arbres de régression. Sur le long terme, à partir de 18 h, la méthode proposée donne de meilleurs résultats que les méthodes existantes

HAL-Université de Bretagne Occidentale

Apprentissage sur Données Massives; trois cas d'usage avec R, Python et Spark.

Author: Besse Philippe
Guillouet Brendan
Loubes Jean-Michel
Publication venue: Technip
Publication date: 01/06/2016
Field of study

International audienceManagement and analysis of big data are systematically associated with a data distributed architecture in the Hadoop and now Spark frameworks. This article offers an introduction for statisticians to these technologies by comparing the performance obtained by the direct use of three reference environments: R, Python Scikit-learn, Spark MLlib on three public use cases: character recognition, recommending films, categorizing products. As main result, it appears that, if Spark is very efficient for data munging and recommendation by collaborative filtering (non-negative factorization), current implementations of conventional learning methods (logistic regression, random forests) in MLlib or SparkML do not ou poorly compete habitual use of these methods (R, Python Scikit-learn) in an integrated or undistributed architectureLa gestion et l'analyse de données massives sont systématiquement associées à une architecture de données distribuées dans des environnements Hadoop et maintenant Spark. Cet article propose aux statisticiens une introduction à ces technologies en comparant les performances obtenues par l'utilisation élémentaire de trois environnements de référence : R, Python Scikit-learn, Spark MLlib sur trois cas d'usage publics : reconnaissance de caractères, recommandation de films, catégorisation de produits. Comme principal résultat, il en ressort que si Spark est très performant pour la préparation des données et la recommandation par filtrage collaboratif (factorisation non négative), les implémentations actuelles des méthodes classiques d'apprentissage (régression logistique, forêts aléatoires) dans MLlib ou SparkML ne concurrencent pas ou mal une utilisation habituelle de ces méthodes (R, Python Scikit-learn) dans une architecture intégrée au sens de non distribuée

Scientific Publications of the University of Toulouse II Le Mirail

HAL-INSA Toulouse

Les Forêts Aléatoires en Apprentissage Semi-Supervisé (Co-forest) pour la segmentation des images rétiniennes

Author: Mohammed El Amine Bechar
Nesma Settouti
Publication venue: HAL CCSD
Publication date: 08/12/2015
Field of study

Nous proposons une approche qui permet la reconnaissance automatique des régions Disques et Cups pour la mesure du rapport CDR (Cup/Disc Ratio) par apprentissage semi-supervisé. Une étude comparative de plusieurs techniques est proposée. Le principe repose sur une croissance de région en classifiant les pixels voisins à partir des pixels d'intérêt de l'image par apprentissage semi-supervisé. Les points d'intérêt sont détectés par l'algorithme Fuzzy C-means (FCM)

HAL Clermont Université

Impact du changement d'échelle sur l'étude des causes des feux de forêts du sud-est de la France

Author: Aryal Jagannath
Genre-Grandpierre Cyrille
Josselin Didier
Louvet Romain,
Publication venue: HAL CCSD
Publication date: 23/11/2015
Field of study

International audienceThe Modifiable Areal Unit Problem (MAUP) is a well-known issue relatedto the influence of the spatial support on statistical observations. It occurs whendifferent spatial units making different spatial partitions are used and when the resultingmeasures vary according to those partitions. In this paper, we first draw a stateof the art. Considering the particular problem of (up)scaling, we propose a methodto visualize the sensitivity of the spatial statistics to the support. We test this methodon forest fires in Southern France, handling a sample from the Promethée database.From these data, we try to find the key explanatory variables. The results show thatthe correlation coefficient varies significantly, depending on scale, and that we canselect variables and scales based on this variability. Then we propose two differentways to deal with the MAUP: (i) by using geovisualization to assess and to improvethe robustness of the correlation analysis and to choose the pertinent information thatallows to minimize the sensitivity, (ii) by considering as pertinent the spatial partitionwhich is the farthest one from a random spatial distribution of the independentvariableLe support spatial des données a potentiellement une forte influence sur le traitement statistique des observations. Cette problématique est connue en géographie sous le nom de Modifiable Areal Unit Problem (MAUP). Celle-ci survient lorsque différentes unités surfaciques peuvent être utilisées et que le résultat varie en fonction de ce choix. Dans cet article, nous présentons un état de l'art de ce problème. Considérant un des aspects du MAUP, à savoir l’influence du changement de niveau d’échelle, nous développons une méthode de visualisation de la sensibilité des statistiques à ce problème. Cette méthode est testée sur l’étude des feux de forêt du sud-est de la France, avec des données issues de la base Prométhée, à partir desquelles nous recherchons des variables explicatives. Nos résultats montrent des variations des coefficients de corrélation en fonction des niveaux d’échelle et la possibilité de sélectionner les variables et les niveaux d'échelle en fonction de cette variabilité. Nous proposons deux méthodes : (i) utiliser la visualisation de ces variations afin d’améliorer la robustesse de l’analyse de corrélation en sélectionnant les informations pertinentes selon leur sensibilité au MAUP, (ii) sélectionner un niveau d’échelle pour lequel le résultat est le plus différent possible d’une redistribution spatiale aléatoire de la variable dépendante

HAL-UNICE

HAL AMU

Reconnaissance de feuilles d'arbres par fusion de décisions partielles

Author: Coquin Didier
Liu Honghui
Valet Lionel
Publication venue: HAL CCSD
Publication date: 03/09/2013
Field of study

National audienceDans le cadre du développement d'une application Smartphone destinée à la reconnaissance des espèces d'arbres, une stratégie basée sur des sous-classifieurs a été mise en place pour reconnaître les feuilles à partir des caractéristiques liées à la base, au sommet et au contour. La théorie des fonctions de croyance est appliquée sur la sortie de chaque sous-classifieur afin de raffiner les résultats en diminuant l'effet de l'incertitude qui existe sur les caractéristiques des feuilles. La décision finale sur l'espèce de feuille est prise en transformant la croyance en probabilité pignistique et en accumulant les probabilités issues de chaque sous-classifieur pour chaque espèce. Les résultats démontrent que notre méthode de sous-classification et de décision obtient de bonnes performances

Hal - Université Grenoble Alpes

HAL Université de Savoie

L'effet des transferts migratoires sur la déforestation dans les pays en développement

Author: Duval Laetitia
Wolff François-Charles
Publication venue: HAL CCSD
Publication date: 01/01/2009
Field of study

Cet article s'intéresse à l'effet des transferts monétaires des migrants internationaux sur l'environnement, à travers l'exemple de la déforestation dans les pays en développement. D'un point de vue théorique, l'effet des transferts migratoires sur la réduction des surfaces forestières apparaît indéterminé. Nous examinons cette relation à partir d'un échantillon comprenant 102 pays pour la période allant de 1990 à 2005. Le profil observé pour le PIB par tête s'avère contraire à l'hypothèse de courbe environnementale de Kuznets, tandis que la part des transferts migratoires reçus dans le PIB vient réduire le taux de déforestation pour l'ensemble des pays considéré

Forêts Aléatoires PAC-Bayésiennes

Author: Zirakiza Brice
Publication venue
Publication date: 19/04/2018
Field of study

Dans ce mémoire de maîtrise, nous présentons dans un premier temps un algorithme de l'état de l'art appelé Forêts aléatoires introduit par Léo Breiman. Cet algorithme effectue un vote de majorité uniforme d'arbres de décision construits en utilisant l'algorithme CART sans élagage. Par après, nous introduisons l'algorithme que nous avons nommé SORF. L'algorithme SORF s'inspire de l'approche PAC-Bayes, qui pour minimiser le risque du classificateur de Bayes, minimise le risque du classificateur de Gibbs avec un régularisateur. Le risque du classificateur de Gibbs constitue en effet, une fonction convexe bornant supérieurement le risque du classificateur de Bayes. Pour chercher la distribution qui pourrait être optimale, l'algorithme SORF se réduit à être un simple programme quadratique minimisant le risque quadratique de Gibbs pour chercher une distribution Q sur les classificateurs de base qui sont des arbres de la forêt. Les résultasts empiriques montrent que généralement SORF est presqu'aussi bien performant que les forêts aléatoires, et que dans certains cas, il peut même mieux performer que les forêts aléatoires.In this master's thesis, we present at first an algorithm of the state of the art called Random Forests introduced by Léo Breiman. This algorithm construct a uniformly weighted majority vote of decision trees built using the CART algorithm without pruning. Thereafter, we introduce an algorithm that we called SORF. The SORF algorithm is based on the PAC-Bayes approach, which in order to minimize the risk of Bayes classifier, minimizes the risk of the Gibbs classifier with a regularizer. The risk of Gibbs classifier is indeed a convex function which is an upper bound of the risk of Bayes classifier. To find the distribution that would be optimal, the SORF algorithm is reduced to being a simple quadratic program minimizing the quadratic risk of Gibbs classifier to seek a distribution Q of base classifiers which are trees of the forest. Empirical results show that generally SORF is almost as efficient as Random forests, and in some cases, it can even outperform Random forests

CorpusUL

Apprentissage et forêts aléatoires

Author: Scornet Erwan
Publication venue: HAL CCSD
Publication date: 30/11/2015
Field of study

This is devoted to a nonparametric estimation method called random forests, introduced by Breiman in 2001. Extensively used in a variety of areas, random forests exhibit good empirical performance and can handle massive data sets. However, the mathematical forces driving the algorithm remain largely unknown. After reviewing theoretical literature, we focus on the link between infinite forests (theoretically analyzed) and finite forests (used in practice) aiming at narrowing the gap between theory and practice. In particular, we propose a way to select the number of trees such that the errors of finite and infinite forests are similar. On the other hand, we study quantile forests, a type of algorithms close in spirit to Breiman's forests. In this context, we prove the benefit of trees aggregation: while each tree of quantile forest is not consistent, with a proper subsampling step, the forest is. Next, we show the connection between forests and some particular kernel estimates, which can be made explicit in some cases. We also establish upper bounds on the rate of convergence for these kernel estimates. Then we demonstrate two theorems on the consistency of both pruned and unpruned Breiman forests. We stress the importance of subsampling to demonstrate the consistency of the unpruned Breiman's forests. At last, we present the results of a Dreamchallenge whose goal was to predict the toxicity of several compounds for several patients based on their genetic profile.Cette thèse est consacrée aux forêts aléatoires, une méthode d'apprentissage non paramétrique introduite par Breiman en 2001. Très répandues dans le monde des applications, les forêts aléatoires possèdent de bonnes performances et permettent de traiter efficacement de grands volumes de données. Cependant, la théorie des forêts ne permet pas d'expliquer à ce jour l'ensemble des bonnes propriétés de l'algorithme. Après avoir dressé un état de l'art des résultats théoriques existants, nous nous intéressons en premier lieu au lien entre les forêts infinies (analysées en théorie) et les forêts finies (utilisées en pratique). Nous proposons en particulier une manière de choisir le nombre d'arbres pour que les erreurs des forêts finies et infinies soient proches. D'autre part, nous étudions les forêts quantiles, un type d'algorithme proche des forêts de Breiman. Dans ce cadre, nous démontrons l'intérêt d'agréger des arbres : même si chaque arbre de la forêt quantile est inconsistant, grâce à un sous-échantillonnage adapté, la forêt quantile est consistante. Dans un deuxième temps, nous prouvons que les forêts aléatoires sont naturellement liées à des estimateurs à noyau que nous explicitons. Des bornes sur la vitesse de convergence de ces estimateurs sont également établies. Nous démontrons, dans une troisième approche, deux théorèmes sur la consistance des forêts de Breiman élaguées et complètement développées. Dans ce dernier cas, nous soulignons, comme pour les forêts quantiles, l'importance du sous-échantillonnage dans la consistance de la forêt. Enfin, nous présentons un travail indépendant portant sur l'estimation de la toxicité de certains composés chimiques

Thèses en Ligne

Forêts aléatoires : remarques méthodologiques

Author: Genuer Robin
Poggi Jean-Michel
Tuleau Christine
Publication venue: HAL CCSD
Publication date: 01/01/2009
Field of study

International audienceOn s'intéresse à la méthode des forêts aléatoires d'un point de vue méthodologique. Introduite par Leo Breiman en 2001, elle est désormais largement utilisée tant en classication qu'en régression avec un succès spectaculaire. On vise tout d'abord à confirmer les résultats expérimentaux, connus mais épars, quant au choix des paramètres de la méthode, tant pour les problèmes dits "standards" que pour ceux dits de "grande dimension" (pour lesquels le nombre de variables est très grand vis à vis du nombre d'observations). Mais la contribution principale de cet article est d'étudier le comportement du score d'importance des variables basé sur les forêts aléatoires et d'examiner deux problèmes classiques de sélection de variables. Le premier est de dégager les variables importantes à des fins d'interprétation tandis que le second, plus restrictif, vise à se restreindre à un sous-ensemble suffisant pour la prédiction. La stratégie générale procède en deux étapes : le classement des variables basé sur les scores d'importance suivi d'une procédure d'introduction ascendante séquentielle des variables

HAL-UNICE

INRIA a CCSD electronic archive server